传染病疫情防控与个人信息保护初探之三:数据技术的应用路径
前言
在数字时代,将ICT技术运用于传染病疫情的监测和防控是题中之义。在此次2019-nCoV病毒疫情中,我们也在公开媒体中初步见到了大数据技术在这方面的威力。
比如百度推出了【百度迁徙升级版上线,人口迁徙大数据向公众开放】。第一财经等媒体也利用百度迁徙地图,就武汉人流进行了专门的报道:【500万人离开了武汉,他们都去了哪儿?】
如果说上述实践中主要展示了集合性数据(aggregated data),基本上不存在个人信息保护风险的话,部分新闻媒体报道中披露出的直接披露、共享武汉人民个人信息的做法(例如【武汉人是否还应该有隐私?】),就存在违法违规的风险。
本系列短文,旨在初步探讨传染病疫情与个人信息保护之间的复杂关系。在文章中,很多时候是提出问题,但确切的答案,我自己也没有。请大家见谅。此前已经发出的该系列文章:
本系列第二篇文章已经对特殊时期收集个人敏感信息的合法性进行了分析,本文将着重探讨利用大数据追踪传染源理论上可行的思路以供参考——即此次疫情防控过程中,如何进一步高效扫除疫情“盲区”,占据疫情防控的“主动权”,又切实保障好个人权益,“个人信息”和相关大数据能否扮演更加“有益”的角色,助力打赢这场疫情防控阻击战呢?
一、获取有效个人信息的思路
据统计,我国网民规模达8.54亿,其中使用手机上网的比例达99.1%,手机和App已成为生活必备品,在疫情时期网民更是依赖于使用手机与外界沟通。以手机及App相关的个人信息为出发点,行踪轨迹最有助于精准锁定“潜在传染源”,其中相关性高的有效信息包括:
1、交易/支付信息
根据《非银行支付机构网络支付业务管理办法》等要求,以及机构对账、生成账单的必要,所有的支付机构必然留存用户的支付信息,支付信息会同时保存在用户终端、支付终端(包括专用收款终端和收款的个人手机)。同时,完整的交易/支付信息中还包含准确的时间,以及支付风控机制、专用收款终端定点部署、摊主实名登记等原因,交易/支付信息可与位置信息产生关联。
2、火车票/机票/汽车票等行程信息
根据《公共航空运输企业航空安全保卫规则》、《铁路旅客车票实名制管理办法》、《道路旅客运输及客运站管理规定》、《中华人民共和国反恐怖主义法》等要求,以及实名购买、实名查验环节的“票、人、证”一致性核对必要,需要记录有关旅客身份信息及出行信息,交通管理、公安等部门均会保留实名乘机、乘车等记录。同时,随着网络购票的普及,购票所需的实名信息、购票记录、退改签信息以及联系方式都会被相关App、网站留存。
3、住宿信息
根据《旅馆业治安管理条例》要求,旅馆接待住宿应当查验住宿人员身份证件,逐人如实登记住宿人员的姓名、性别、民族、住址、有效身份证件种类和号码以及入住、退房房号及时间等信息,登记的信息也应当通过旅馆业治安管理信息系统实时传输报送公安机关。同时,随着网络预订的普及,预订住宿的记录以及联系方式都会被相关App、网站留存。
4、行车/导航记录信息
不管是乘坐网约车还是开车自驾开启导航成为常态,而开启导航服务所必要的信息是精准地理位置。以网约车为例,其计费模式依赖导航路线,其结算模式依赖于行车记录(时间、起止地点等),其纠纷处理依赖于乘客信息(联系方式、姓名等),行车记录中包含足够的可用信息。以私家车为例,导航记录可能包括了注册手机号码、设备识别码(硬件或软件自定义)、导航路线、时间等。以收费站为例,因缴费所需,收集了车牌信息、所经路线及时间,车牌信息可与车辆登记人信息进行关联。
5、收货地址信息
网购、外卖已经成为大众的日常习惯,提供准确的收货地址也成为上门配送的必要条件。通常,配送记录、配送地址、联系方式信息等通常会被相关App、网站留存。
二、大数据关联分析的思路
(一)基于传染源地点、感染时间(段)、感染人员等信息进行直接分析
如果已知传染源地点、感染时间(段)、感染人员等信息,可以直接基于交易/支付信息、行程信息、住宿信息、行车/导航记录信息、收货地址信息,查找相关可能存在感染风险的人员,并进一步对其行踪轨迹进行关联分析,进行分析的方式包括:
1)基于手机号码进行关联分析
以上个人信息绝大多数均在手机App端和相关服务器产生(包括用户主动提供,如身份证、联系方式等,以及生成的各类活动记录),而且前提是需要注册账号。根据《移动互联网应用程序信息服务管理规定》,移动互联网应用程序提供者可以按照“后台实名、前台自愿”的原则,对注册用户进行基于移动电话号码等真实身份信息认证。目前,绝大多数App都基于有关规定采取了手机号码注册的方式,以满足账户注册、实名制规定、账户安全(动态密码、短信登录、密码找回等)等功能,可谓一举多得。因此,基于手机号码将不同行为信息相关联是可行性很高的一种措施。此外,手机号码有着独一无二的优势,利用手机号码可以直接联络到用户,向用户提供相关信息;在电信运营商的协助下,还可以利用信令核准使用手机号码人员所在精准位置。
2)基于设备识别码进行关联分析
对于未使用手机号码注册、登录的情形下App记录的各类个人信息,在App申请开启“电话/设备信息”权限和使用Cookie等情况下,可能收集了IMEI/IMSI/SN/MAC/IDFA等设备硬件设备码以及软件生成的识别码,这类信息也可以成为关联用户活动形成行踪轨迹的关联点。此外,借助设备识别码可以由国民级App(装机量上亿)的平台通过推送“通知”方式触达用户。
(二)基于行踪轨迹的二次关联分析和风险预测
由于病毒具备“人与人”传播的特性,且潜伏期可能长达14天,在这期间很难捕捉传播的路径,即使广泛散发通知,也不能保证人人看得到、人人有印象、人人愿反馈。因此,除了从已感染或疑似感染病毒的人群进行直接分析以外,借助大数据二次关联分析可以掌握与感染者/疑似感染者有过接触的人员动向。
比如,基于购物、用餐等相关的交易/支付信息,同一行程和同一住宿信息等,可以了解特定时间段内与已感染/疑似感染病毒人员有过接触的人员,然后再分析该人员其他行踪轨迹,从而形成完整的“二次/多次传播”态势信息。
在风险预测方面,可以通过分析“接触时间、时长”,如是否与已处在潜伏期人员进行接触、是否在传染源长时间逗留,也可以通过分析“接触空间”,如是否为密闭空间(如飞机、火车、汽车等),是否为人群密集场所(如商场、景区、游乐场等),并根据具体信息设定不同的风险级别,对高风险人群进行锁定和二次/多次追踪。并结合发病规律和人员流动规律,形成“预警”大数据,以协助疫情防控有关部门作好应对措施。
三、针对疫情防控应用场景的探讨
基于上述思路,对现有应用案例分析如下:
以武汉华南海鲜市场为例,作为最早被确认的“传染源”,应当准确掌握疫情发生前所有在市场出现人员的记录以及后续的行踪轨迹,其中支付/交易信息可以成为突破点。在扫码支付成为主流支付方式的今天,通过市场专用收款终端,以及固定摊主收款手机,可以明确找到最可能感染病毒时间段内所有进出市场购买农产品的人员信息,以支付信息为线索,找到关联的手机号或设备信息,可以结合行程、住宿、导航、收货等还原其行踪轨迹,如果其为重点关注对象,还可以进行二次关联分析,形成以武汉华南海鲜市场为对象的易感人员流动地图,且可以精确到可联系的具体人员。
以汉口火车站为例,作为出入武汉人员最主要的集散地,已经曝出有多辆列车上有确诊/疑似感染的人员,依赖火车站进出闸机以及实名制购票信息可以获知近距离可能感染人员信息。同时,还可以使用关联信息(如手机号)分析其出站后住宿、交易地点、收货地址等信息,形成以汉口火车站为对象的易感人员流动地图,且可以精确到可联系的具体人员。
以武汉出城自驾人员为例,通过时间区间和导航信息可以获知易感人群的行踪路线,同时,还可以通过ETC、沿途交易信息等进一步核对,包括在停留较长的停车带、加油站、服务区,可以进一步作二次关联分析,形成武汉出城自驾易感人员流动地图,且可以精确到可联系的具体人员。
以上只是基于已有数据假设的理论分析,实际的分析过程可操作性还需反复讨论和实践,比如数据源涉及多个行业领域、企业、机构等,如何获取?谁有权获取?谁来分析?如何保护?谁来使用?等等。
四、对保护个人隐私、科学安全使用大数据的建议
当前,全社会广泛采集各类人员信息,用于甄别与武汉相关人员的行踪,广泛采集的背后,势必有着一少部分的管理疏忽,使用不当等现象,甚至在人员信息泄漏或非法披露后,相关配合登记工作的人员反而“完全被暴露”在公众视线之下,承受了巨大的心理压力,甚至可能影响其人身安全。而且,对个人信息的保护不力将直接影响到后续信息采集过程中公众、机构对采集方的信任问题导致效率、精度等下降,让助力疫情防控的效果大大折扣。对保护个人隐私、科学安全使用大数据有以下建议:
相信,有关部门已经全力以赴,科学运用数据助推打赢这场疫情“阻击战”。总而言之,利用大数据筛查、追踪传染源,为最需要的人提供最及时的医疗帮助,正是数字时代所赋予我们的“温度”和“力量”。
下一篇文章将关注域外在此方面的国外经验及提出的相应原则。
数据保护官(DPO)社群主要成员是个人信息保护和数据安全一线工作者。他们主要来自于国内头部的互联网公司、安全公司、律所、会计师事务所、高校、研究机构等。在从事本职工作的同时,DPO社群成员还放眼全球思考数据安全和隐私保护的最新动态、进展、趋势。2018年5月,DPO社群举行了第一次线下沙龙。沙龙每月一期,集中讨论不同的议题。目前DPO社群已近300人。关于DPO社群和沙龙更多的情况如下:
DPO社群成果
线下沙龙实录见:
评估GDPR效果和影响:
线上沙龙见:
DPO社群成员观点